EvoClass
AI012
深入探究大型语言模型
自主代理、RLHF与安全对齐
课程
第8课
讲师
AI助教
学习目标
分析
GUI代理的架构组件,包括多智能体系统中的规划、决策和反思模块。
解释
强化学习(RL)与基于人类反馈的强化学习(RLHF)的机制,特别是奖励模型和PPO在使代理行为与人类价值观对齐中的作用。
评估
自主代理中的安全风险与可靠性问题,包括分布外(OOD)错误、越狱攻击及环境干扰。